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具有 情感 倾向 代表 性 作用 。[ 方法 】 提出 基于 社会 网 络 分 析 的 评论 簇 


对 象 情感 倾向 性 分 析 模 型 。 针 对 网 络 新 闻 事 件 ， 以 新 闻 的 用 户 评论 (评论 总 集 ) 为 语 料 数 据 ,， 对 语 料 数据 进行 结 
构 化 处 理 和 分 析 , 借助 评论 主体 的 形式 化 关系 , 建立 具有 网 络 节 点 和 拓扑 连接 关系 的 知识 图 谱 ， 寻 找 最 优 评 
论 徐 。 以 评论 簇 的 评论 主体 及 其 对 应 的 评论 对 象 为 主 ,对 评论 簇 内 的 核心 人 物 及 其 评论 进行 语义 分 析 , 计算 得 


到 评论 簇 情感 倾向 , 并 与 对 应 新 闻 的 评论 总 集 情 感 倾 向 作对 比 。[ 结果 】 实 验 结 


表明 , 评论 复 和 评论 总 集中 


的 情感 强度 趋 于 一 致 ， 新 闻 的 评论 篮 对 新 闻 具 有 较 好 的 情感 倾向 代表 性 ， 并 能 将 网 络 与 情 对 象 情感 挖掘 算法 


的 性 能 提高 $8%。[ 局 限 】 


于 本 文 的 评论 簇 对 象 情感 倾向 性 分 析 模 型 在 情感 特征 词 识别 和 抽取 方法 上 使 用 不 


够 完善 ， 导 致 少量 中 文 分 词 和 词性 标注 错误 、 语 法 依存 关系 错误 ， 且 未 将 程度 词 考虑 在 内 。[ 结论 】 评 论 禾 在 
网 络 粤 论 中 具有 情感 倾向 代表 性 作用 ， 可 提高 网 络 与 情 对 象 情感 计算 的 性 能 ， 可 灵活 有 效 地 降低 鳞 情 分 析 的 


时 间 和 空间 复杂 度 。 
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1 引 言 


网 络 和 与 论 是 公众 在 特定 时 间 里 通过 各 种 网 络 渠 道 
对 新 闻 事件 进行 观点 表述 和 思想 传播 而 形成 的 情绪 总 
和 。 网 络 奥 论 在 多 数 情况 下 是 以 多 样 化 的 评论 总 集 为 
发 展 根 源 , 一 条 新 闻 事 件 的 评论 总 集 呈 现 出 网 民 对 于 
该 事件 的 态度 ， 亦 称 情感 倾向 ,同时 , 被 大 多 数 网 民 认 
可 或 者 反 驭 的 评论 则 会 以 点 赞 或 回复 形式 形成 聚集 的 
“评论 簇 ”, “评论 入 "就 成 为 与 论 情感 倾向 研究 的 核心 。 
如 何 有 效 把 握 网 络 与 论 发 展 的 势 态 ， 即 网 络 与 情 , 评 
论 簇 就 成 为 网 络 熏 情 中 情感 倾向 代表 的 重要 组 成 部 
分 。 评 论 对 象 是 评论 主体 对 某 新 闻 进 行 评论 时 产生 的 
评论 文本 主语 。 评 论 艇 研究 的 关键 任务 是 挖 据 评 论 领 
袖 呈 即 后 文 提出 的 核心 人 物 或 核心 评论 主体 、 挖 掘 评 


论 对 象 以 及 分 析 评 论 情感 倾向 等 。 本 文 针 对 这 一 研究 
点 ， 利 用 新 闻 事 件 的 评论 语 料 ,， 采 用 社会 网 络 分 析 叫 
的 语义 网 络 知识 图 谱 技 术 和 网 络 与 情 情 感 挖掘 分 析 算 
法 中 等 相关 知识 ,提出 基于 社会 网 络 分 析 的 评论 徐 对 
象 情感 倾向 性 分 析 模 型 。 


2 相关 研究 


网 络 与 论 的 情感 倾向 代表 性 研究 方向 主要 包括 ; 
以 社会 网 络 分 析 (SNA) 为 基础 而 形成 的 对 核心 人 物 挖 
掘 的 网 络 与 情 研 究 ; 以 机 需 学 习 为 主 的 语 料 文本 挖掘 
分 析 ， 最 终 形成 情感 分 析 算 法 。 

(1) 以 SNA 为 分 析 方法 的 主要 通过 对 网 络 中 传播 
信息 的 节点 构成 的 网 络 进行 研究 ,发 现 该 网 络 的 结构 
特征 ,定量 计算 得 到 语义 关系 网 络 中 的 核心 人 物 , 助 


通讯 作者 : 余力 , ORCID: 0000-0001-8503-2535，E-mail: buaayuli@ruc.edu.cn。 


* 本 文系 北京 市 教育 委员 会 科技 计划 面 上 项 目 "文本 挖掘 若干 关键 问题 的 研究 (项 目 编号 :KM201511232016) 和 国家 自然 科学 基金 项 目 


“推荐 -采纳 模式 下 的 病毒 营销 用 户 影响 研究 ”( 项 目 编号 : 71271209) 的 研究 成 果 之 一 。 


XIANDAI TUSHU QINGBAO JISHU 


广 | 上 ”Vi 人 [人 万 甘 日 工 | 
C| | ia IV 口 | FF 世 有 T | 


研究 文 


于 分 析 与 情 信息 传播 模式 。 石 彭 辉 中 研究 SNA 在 网 络 
与 情 方面 的 应 用 ,主要 通过 SNA 技术 中 的 参数 分 析 ， 
来 进行 丘 情 研究 。 刘 继 等 中 对 网 络 熏 情 传播 模式 中 单 
关键 点 型 、 多 关键 点 型 、 链 式 型 传播 模式 进行 分 析 ， 对 
网 络 结构 中 的 强势 节点 和 桥 节点 的 作用 进行 讨论 。 赵 
德 伟 等 外 以 某 网 络 热点 话题 为 例 ， 对 该 话题 社会 网 络 
进行 整体 挖掘 , 计算 分 析 点 度 中 心 度 、 密 度 、 直 径 、 
聚 类 系数 等 参数 信息 ,并 提出 舆情 监管 建议 。 

(2) 以 机 器 学 习 为 主 则 主要 是 对 网 络 传播 的 信息 
内 容 进行 语义 分 析 研 究 ,发现 重 要 网 络 与 情 信 息 。 杜 
嘉 忠 等 中 提出 一 种 基于 领域 专用 情感 词 的 网 络 评论 情 
感 分 析 方 法 。 该 方法 构建 特征 -情感 词 本 体 , 利用 本 体 
对 网 络 上 的 产品 评论 进行 情感 分 析 , 并 与 基于 Senti- 
HowNet 词典 的 情感 分 析 方 法 进行 对 比 。 韩 瑞 凯 中 在 微 
博 情 感 的 特征 产生 与 选择 以 及 分 类 器 研究 方面 ,主要 
介绍 了 基于 朴素 贝 叶 斯 微 博 情 感 分 析 情 况 , 针对 微 博 
短文 本 的 特点 , 将 微 博 视 为 单一 观点 和 观点 分 割 两 种 
情况 进行 分 析 。 

综 上 ， 从 社会 网 络 分 析 和 语义 情感 计算 两 个 分 支 
的 相关 研究 现状 可 以 看 出 , 社会 网 络 分 析 可 以 从 非 机 
器 学 习 角 度 对 语义 情感 计算 提供 相关 指标 的 快速 分 
析 , 二 者 之 间 有 很 高 的 关联 度 ; 语义 情感 分 析 的 相关 
核心 指标 可 以 借助 社会 网 络 分 析 方 法 实现 。 本 文采 用 
社会 网 络 分 析 和 文本 挖掘 情感 倾向 研究 相 结合 的 方 
法 , 通过 对 网 络 熏 论 中 的 评论 簇 进行 情感 倾向 分 析 
并 建立 评论 艇 和 评论 总 集 的 关联 关系 , 实现 评论 簇 
对 网 络 自 论 具 有 和 较 好 的 情感 倾向 代表 的 可 行 性 和 有 
效 性 验证 。 


3 ”基于 社会 网 络 分 析 的 评论 答对 象 情感 
倾向 性 分 析 模 型 


本 文 在 首次 实验 过 程 中 对 短文 本 进行 处 理 分析 ， 
由 于 评论 文本 属于 短文 本 ,情感 特征 稀 琉 ,， 且 评论 对 
象 抽 取 难 度 较 大 ，SVM 情感 分 类 器 上 对 此 类 评论 文本 
的 处 理 效果 不 及 本 文 的 研究 模型 效果 理想 , 故 在 二 次 
实证 过 程 中 提出 基于 社会 网 络 分 析 的 评论 簇 对 象 情感 
倾向 性 分 析 模 型 ， 该 模型 采用 社会 网 络 分 析 的 相关 知 
识 推理 算法 和 网 络 奥 情 情感 挖掘 计算 ,进行 多 次 重复 
性 实验 , 验证 了 评论 簇 在 评论 总 集中 具有 显著 的 情感 
倾向 代表 性 特征 。 


现代 图 书 情报 技术 


社会 网 络 分 析 是 对 网 络 结构 及 属性 特征 , 包括 网 
络 中 的 个 体 属 性 和 整体 属性 进行 分 析 包 。 本 文 以 形成 
网 络 僵 论 的 评论 总 集 为 基础 数据 源 , 运用 SNA 的 定量 
计算 指标 挖掘 出 核心 人 物 ， 即 本 文 研究 过 程 中 的 评论 
主体 ; 以 评论 主体 为 主 构成 的 传播 信息 节点 外 的 语义 
网 络 知 识 图 谱 为 基础 得 到 评论 主体 和 评论 主体 对 应 的 
评论 复 ; 再 利用 网 络 粤 情 情感 倾向 分 析 的 相关 算法 ， 
包括 文本 预 处 理 、 特 征 抽 取 、 评论 对 象 的 情感 结构 化 
表示 和 情感 倾向 分 析 , 将 评论 艇 和 评论 总 集中 带 有 
情感 色彩 的 主观 性 评论 文本 进行 语义 情感 倾向 性 分 
析 并 将 两 者 作对 比 。 在 本 文 研 究 过 程 中 针对 上 述 模型 
做 了 多 次 重复 实验 , 并 对 实验 中 指标 参数 以 及 算法 
进行 多 次 改进 得 出 理想 的 结果 ,通过 评论 簇 的 情感 
倾向 较 准确 地 得 出 网 络 由 情 的 情感 倾向 ,除了 在 分 
析 计 算 性 能 上 提高 之 外 , 更 能 为 与 情 热 度 、 监 控 和 预 
测 作 支撑 。 

本 研究 模型 的 两 大 关键 步 又 分 别 是 评论 簇 定量 
计算 和 评论 徐 情 感 倾 向 性 计算 。 
3.1 评论 簇 定 量 计算 

评论 簇 定量 计算 是 本 文 模型 的 关键 步骤 所 在 ， 是 
为 寻找 到 评论 总 集中 所 有 的 核心 评论 主体 (核心 人 物 )， 
进一步 从 核心 评论 主体 得 到 与 核心 评论 主体 对 应 的 评 
论 复 Ci。 评论 簇 定量 计算 是 基于 新 闻 的 大 量 非 结构 性 
评论 文本 总 集 C, 采用 社会 网 络 分 析 和 知识 推理 的 相 
关 理 论 , 根据 评论 主体 互相 之 间 的 关联 性 构建 的 知识 
图 谱 , 利用 知识 图 谱 中 节点 的 威望 度 、 中 心 度 、 评 论 
质量 计算 得 出 处 于 网 络 核心 和 发 言 较 活 跃 的 人 物 , 并 
根据 核心 人 物 得 到 与 核心 人 物 相关 的 网 络 关 系 图 ， 以 
及 图 中 每 个 节点 对 应 的 评论 主体 及 评论 ， 即 可 寻找 到 
最 优 评论 复 Ci; 由 于 新 闻 评 论 的 “项 ”、“ 踩 ”数量 对 评 
论 的 观点 倾向 性 影响 较 大 , 故 抽 取 “ 顶 "“ 踩 ” 数 =N 的 
评论 作为 评论 复 Cs, 评论 篮 Cs 的 阔 值 设 为 N。 其 中 ， 
判断 知识 图 谱 中 核心 评论 主体 的 指标 分 别 为 威望 度 、 
中 心 度 、 评 论 质量 。 

(1) 威望 度 

根据 Web 原 评论 页 面 抽取 出 的 量 级 元 数据 , 运用 
SNA 方法 得 到 某 节 点 入 度 与 所 有 网 络 节点 入 度 的 比 
值 后 进行 排序 , 得 出 核心 人 物 的 威望 度 外 ,入 度 是 所 有 
指向 该 节点 的 弧 个 数 之 和 ,在 本 文中 指 某 条 评论 被 回 
复 的 个 数 。 运 用 比值 法 求 得 威望 度 作 为 核心 人 物 衡量 


指标 , 节点 的 入 度 与 威望 度 成 正比 , 一 个 节点 的 入 度 
越 高 ， 则 威望 度 越 高 ,， 那么 该 节点 所 代表 用 户 的 评论 
内 容 被 其 他 用 户 回 复 的 次 数 就 越 多 , 该 用 户 在 论坛 中 
所 处 的 位 置 就 越 重 要 。 威 望 度 的 计算 公式 由 如 下 : 


Pp(Vi) = (D 


其 中 ,x 表示 节点 Vi 的 人 度 。 

(2) 中 心 度 

一 个 节点 的 中 心 度 越 高 ,， 表示 该 节点 所 代表 的 评 
论 主体 与 其 他 评论 主体 的 互动 就 越 多 , 说 明 该 评论 主 
体 在 论坛 中 越 活 跃 , 活跃 的 评论 主体 可 以 带动 整个 网 
络 的 评论 能 动 性 ,在 此 思路 的 指导 下 , 依据 SNA 技术 ， 
借助 于 Pajek 分 析 平 台 和 人 工分 析 计 算 对 比 得 到 标准 
化 处 理 的 网 络 中心 度 数据 ， 进 一 步 得 到 网 络 中 活跃 度 
高 的 评论 主体 。 

(3) 评论 质量 

评论 质量 "MM 用 M 表示 ,由 于 不 同 评论 主体 的 回复 
数 差 别 较 大 ， 因 此 要 进行 归 一 化 处 理 ， 如 公式 (2)。 定 
义 评论 质量 是 为 了 更 加 精准 地 得 到 核心 人 物 ， 作为 寻 
找 正确 核心 人 物 的 依据 ， 区 别 于 核心 人 物 威 望 度 , 评 
论 质 量 是 相对 于 局 部 社会 网 络 中 评论 主体 因 受 回复 数 
影响 而 言 ， 其 回复 数 与 其 他 回复 数 的 标准 化 比较 ， 权 
重 值 越 大 的 点 则 评论 质量 越 高 。 


M= m— mmin 0O) 
Mmax ~ Mmin 


其 中 , m 为 某 一 评论 主体 所 得 回复 数 , mmax 为 所 有 
评论 主体 中 最 大 回复 数 , mni 为 所 有 评论 主体 中 最 小 
回复 数 。 

3.2 ”评论 簇 情感 倾向 性 计算 

本 文 模型 中 评论 簇 情感 倾向 性 计算 阶段 主要 是 
把 前 期 评论 簇 定量 计算 阶段 得 到 的 非 结构 化 评论 文本 
转化 为 结构 化 评论 文本 , 将 评论 文本 中 的 评论 对 象 和 
情感 特征 词 抽取 并 进行 结构 化 表示 , 通过 语义 分 析 算 
法 做 评论 文本 情感 倾向 分 析 。 其 中 , 评论 文本 包括 评 
论 总 集 和 评论 篮 两 部 分 。 此 阶段 分 析 步 又 主要 有 : 文 
本 预 处 理 、 特 征 抽取 、 评 论 对 象 的 情感 结构 化 表示 、 
评论 对 象 的 情感 倾向 分 析 。 

(1) 文本 预 处 理 

文本 预 处 理 的 主要 目的 是 将 非 结构 化 评论 文本 
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总 集 和 评论 簇 分别 转化 为 结构 化 评论 数据 ， 有 利于 后 
续 实 验 的 二 元 组 分 析 。 文本 预 处 理 算法 的 核心 步骤 是 : 
将 每 个 评论 段落 分 为 若干 语句 , 将 语句 按 标识 符 分 割 
成 若干 短语 词组 。 包 括 采用 ICTCLAS 程序 进行 分 词 
和 词性 标注 品 、 去 停 用 词 、 词 频 统 计 和 共 现 词 合并 分 
析 ,， 对 评论 总 集 和 定量 计算 得 出 的 评论 复 分 别 做 文本 
预 处 理 。 

(2) 特征 抽取 

本 文 的 特征 抽取 是 指 新 闻 评 论文 本 中 评论 对 象 的 
抽取 和 评论 对 象 对 应 的 情感 特征 词 抽取 [1。 特 征 抽取 
算法 的 核心 步骤 是 : 根据 文本 预 处 理 得 到 的 词 频 统 
计 、 共 现 词 合并 和 语法 词性 分 析 !， 得 到 新 闻 的 评论 
对 象 ; 再 进行 句法 分 析 和 依存 关系 分 析 得 出 合理 的 短 
语 搭配 模式 来 匹配 每 个 对 象 的 观点 特征 词 。 本 文 的 每 
一 短文 本 都 是 以 评论 对 象 为 标识 以 抽取 能 代表 评论 对 
象 情感 的 语义 词 ， 以 < 动词 /v> 、< 形 容 词 /a> 和 < 名 词 n> 
为 情感 倾向 特征 词 号， 得 到 具有 评论 对 象 、 特 征 观 点 
的 二 元 组 结构 表 051: 

Lexicon =(Object, Feature) (3) 

其 中 , Object 指 抽 取 的 评论 对 象 , Feature 指 能 代表 
评论 对 象 的 情感 倾向 特征 词 。 

(3) 评论 对 象 的 情感 结构 化 表示 

对 上 述 所 得 的 二 元 组 结构 表 , 使 用 大 连理 工大 学 
言 息 检索 研究 室 的 情感 词汇 本 体 09 进 行 极 性 和 程度 匹 
配 ， 得 到 四 元 组 结构 : 

Lexicon =(Object, Feature, Polarity Degree) (4) 

其 中 ，Polarity 指 Object 对 应 Feature 在 情感 词汇 
本 体 的 极 性 , Degree 指 Object 对 应 Feature 在 情感 词汇 
本 体 中 的 极 性 程度 。 

(4) 评论 对 象 的 情感 倾向 分 析 

将 正 向 情感 强度 值 和 负 向 情感 强度 值 计 算 分 别 表 
示 , 若 将 二 者 做 合 差 运算 ， 只 能 反映 出 情感 对 象 最 终 
情感 倾向 上 的 一 维特 性 ,不 利于 直观 反映 出 评论 对 象 
的 正面 情感 强度 值 和 负面 情感 强度 值 的 二 维特 性 ， 正 
负 值 分 开 计 算 更 有 利于 实验 的 具体 性 和 反映 评论 文本 
的 客观 性 ; 由 于 评论 徐 Cl 和 C; 的 重要 性 也 会 影响 实 
验 的 准确 率 , 对 评论 艇 C1 和 C; 的 权重 值 9 在 实验 过 程 
中 进行 参数 调节 ,取得 合理 的 9 值 以 提高 实验 的 准确 
率 , 基于 上 述 依 据 和 四 元 组 结构 表 公 式 (4), 利用 情感 计 
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算 公 式 (5), 得 出 评论 簇 中 评论 对 象 的 情感 倾向 强度 值 。 


polarity(i) x degree(i) 0 
n+m 


>,(Obj, pword)=n 0=o 或 B 
SO(ObjecD =1 ™ 


》 (Objjnword) =—m Peay Ox degree)¢ 6=o 或 B 
n+m 


(5) 
其 中 ，SO(Sentiment Orientation) 表 示 评 论 对 象 对 
情感 特征 词 的 情感 强度 值 ; pword 和 nword 分 别 指正 
情感 倾向 词 和 负 回 情感 倾向 词 ; n 和 m 分 别 指正 疝 
感 倾 向 词 和 负 向 情感 倾向 词 的 总 个 数 , 由 于 正 向 情 
感 词 和 负 向 情感 词 所 占 比例 不 同 , 为 了 真实 反映 情感 
向 值 的 正确 分 布 , 公式 (5) 中 加 入 正 、 负 情感 词 在 总 
感 词 集中 的 权重 比例 ; polarityQ) 为 情感 倾向 词 的 极 
; degree(i) 为 情感 倾向 词 的 程度 ; 9 为 评论 艇 的 权重 
因子 , 取 值 为 a 或 B， 当 情感 倾向 词 在 评论 徐 C, 时 取 值 
为 a， 当 情感 倾 回 词 在 评论 徐 C1 时 取 值 为 B。 


4 实证 研究 与 结果 分 析 


从 三 个 不 同 领域 的 热点 话题 选取 具有 代表 性 的 
新 闻 评 论语 料 , 分 别 为 “成 都 被 打 女 司机 ”2 802 条 
评论 语 料 、“ 复 旦 投 毒 案 " 12 717 条 评论 语 料 、“ 王 菲 
谢霆锋 下 月 大 理 成 婚 ”30 959 条 评论 语 料 ， 分 析 步 
又 如 下 : 
4.1 评论 簇 抽取 

针对 每 一 个 特定 新 闻 页 面 的 所 有 评论 数据 总 集 ， 
抽取 出 新 闻 跟 帖 评论 中 所 有 评论 主体 的 特征 项 : 评论 
主体 标识 符 、IP 地 址 、 评 论 内 容 以 及 “ 顶 ”、““ 踩 ” 数 , 每 
一 个 特定 新 闻 页 面 所 有 评论 总 集 C 作为 实验 分 析 的 对 
比 源 数据 。 每 个 评论 主体 对 应 一 个 节点 ,建立 具有 网 
络 节点 和 拓扑 连接 关系 的 知识 图 谱 ， 以 每 个 节点 的 威 
望 度 、 中 心 度 以 及 评论 质量 三 个 参数 寻找 核心 人 物 节 
点 。 图 1 为 三 个 数据 总 集 节点 在 分 析 过 程 中 对 应 的 三 
个 参数 的 数值 分 析 , 由 于 评论 主体 数量 较 多 难以 全 部 
呈现 , 图 中 仅 列 出 部 分 。 

根据 上 述 三 个 参数 分 析 可 得 到 核心 人 物 节点 ; 
根据 已 选 核 心 人 物 节点 从 知识 图 谱 中 中 找到 与 之 相 
关 的 所 有 关系 网 络 , 图 2 为 具有 代表 性 的 网 络 关系 
图 ; 结合 参数 分 析 和 网 络 关系 图 找到 核心 人 物 节点 
在 评论 文本 中 对 应 的 评论 主体 及 评论 ， 即 寻找 到 最 
优 评论 复 Ci。 
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呈 呈 二 一 二 二 二 二 二 二 一 一 
避 一 让 mm 上 wo 一 i 


湖 黑 松 浙 信 火 钱 斗 山河 王 青 姓 果 吕 宇 青 
南 龙 风 江 宇 旦 业 转 东 南小 海 付 傈 名 
湘 红 云 丽 2 网 吡 星 害 郑 二 西 姓 盘 全 
济 哈 影 水 品 友 友 痕 岛 州 友 宁 郑 强 吕 

(a) NO.1 


呈 呈 一 二 二 二 二 二 二 一 一 一 
忆 一 让 mm 上 wav、1coo 忆 一 i 


主 非 冬 阿 岂 所 风 澳 三 自 搓 三 都 天 届 黄 
3 著 瓜 亚 二 基 需 大 晤 杨 地 它 是 球台 遇 
名 和 爷 画 三 另 刀 利 8& 山 有 % 一 网 总 女 
Ea x # 客 亚 “ 野 声 忆 个 友 员 帖 
子 ** 网 猪 已 村 导 协 
友 林 的 “会 
(b) NO.2 
js 和 2 
1.1 
1.0 
0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
0.3 
0.2 
0.1 
0 
三 三 回落 纳 棒 丰 世 呈 洪 鱼 安 黄 只 二 
器 二 黑 雨 兰 棒 到 对 名 雪 衬 倍 易 色 
忆 的 的 飞 粮 马 章 吧 记 加 
3 光 唱 冬 雪 苞 司 席 避 续 丸 味 六 全 
ee 
二 想 师 员 
你 
(c) NO.3 
一 e 一 威望 度 ”一 各 一 中 心 度 一 9 一 评论 质量 


图 1 节点 参数 值 分 析 


对 于 抽取 “ 顶 ”“ 躁 " 数 为 N 的 评论 作为 评论 簇 C,。 
由 于 热点 新 闻 评论 贴 中 “ 顶 *"、“ 躁 ” 数 靠 前 的 评论 都 是 
按照 “ 顶 ” 数 降序 排列 ,本 实验 以 “ 顶 ” 数 作为 单一 阔 值 
分 析 指 标 , 且 根 据 大 量 评论 文本 的 “ 顶 ” 数 据 作 分 析 得 
到 阔 值 N=200, 寻找 到 最 优 评论 徐 C,。 

由 于 评论 复 C1 和 Cs 没有 客观 固定 的 实验 权重 值 
作 依 托 , 针对 此 问题 进行 重复 性 实验 以 确定 此 参数 因 
子 , 依据 理论 设 定 8 组 实验 参数 值 , 做 o, B 生 成 参数 调 
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图 2 代表 性 网 


优 实验 。 根 据 8 组 参数 分 别 计算 得 到 三 个 评论 篮 集 的 
一 维 对 象 情感 倾向 值 ， 并 与 各 自 对 应 的 评论 总 集 C 的 
一 维 对 象 情感 倾向 值 作对 比 ， 以 欧 氏 距离 作为 C 和 

CiG=1,，2) 对 比 的 评价 函数 d( 见 公式 (6)), 对 比 后 分 别 求 
得 三 组 数据 平均 值 d 寻求 到 o, B 的 最 优 值 ( 见 表 1)。 
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得 到 的 对 象 情感 倾向 值 和 评论 总 集 计 算得 到 的 对 象 情 
感 倾向 值 最 为 接近 ,即将 公式 (5) 中 的 a 确定 为 0.8, B 确 
定 为 0.2。 
4.2 ”评论 篮 情 感 倾 向 性 计算 

对 所 得 评论 复 Ci 进行 分 词 .词性 标注 .去 停 用 词 、 
词 频 统计 、 共 现 词 合 并 分 析 和 语法 词性 分 析 得 到 评论 
文本 中 的 主要 评论 对 象 。 评 论文 本 中 的 评论 对 象 可 能 
会 出 现 “ 他 ”“ 她 ”类 似 的 代词 , 根据 人 民 大 学 信息 学 院 
文本 挖掘 与 数据 分 析 课题 组 自行 开发 的 指 代 消 解 工具 
对 指 代词 进行 一 致 化 处 理 后 再 进行 句法 分 析 和 依存 关 
系 分 析 , 得 到 主要 评论 对 象 对 应 的 以 < 动词 W>、< 形 容 


d=VGCo XI) + (VY) (0) 
表 1 a,B 生 成 参数 调 优 实验 

实验 [08 B d 
基准 实验 1 1 1.052093152 
二 0 1 1.679315337 
1 0 1.652452722 
0.5 0.5 0.832346082 
0.6 0.4 0.990454441 
参数 寻 优 实验 0.7 0.3 0.845990544 
0.8 0.2 0.697710542 
0.9 0.1 1.350740538 


根据 理论 取得 上 述 8 组 数据 作为 参数 调节 的 实验 
数据 。 本 次 实验 表明 ， 当 o=0.8, B =0.2 时 , 评论 簇 计 算 


词 /a> 和 < 名 词 /n> 为 主要 情感 倾向 词 的 二 元 组 关系 表 ， 
再 使 用 大 连理 工大 学 信息 检索 研究 室 的 情感 词汇 本 体 
进行 极 性 和 程度 匹配 ,得 到 四 元 关系 表 ， 部 分 代表 性 

特征 项 属性 关系 见 表 2, 与 此 同时 , 分 别 对 三 则 新 闻 的 
评论 总 集 源 数据 C 进行 上 述 相同 步 又 分 析 。 在 识别 评 
价 对 象 对 应 的 情感 特征 词 的 个 别 错 例 现象 中 发 现 , 其 
主要 错误 原因 是 程序 优化 不 够 使 得 短文 本 没有 得 到 正 


XIANDAI TUSHU QINGBAO JISHU eA 


研究 文 


确 的 语法 依存 关系 分 析 , 在 遇 到 多 个 评价 的 复杂 句 中 
评价 对 象 与 情感 特征 词 距离 过 远 或 不 同 评价 对 象 之 间 
的 特征 词 配对 错误 ,会 造成 个 别 二 元 组 的 配对 误差 。 
此 原因 造成 误差 的 数据 在 进行 二 元 组 存储 时 根据 本 课 


ChinaX 肝 


由 下 


信人 什 甘 
用 归 二 


IV 口 | 


题 组 组 内 研究 已 有 成 果 中 的 SentiRuc 情感 词典 进行 一 
次 性 修正 ， 少 数 情感 特征 词 在 本 体 词 库 匹 配 失败 ， 则 
利用 HowNet 进行 同义词 替换 , 尽 可 能 取得 最 小 误差 
的 目标 数值 。 


表 2 对 象 - 情 感 特征 词 四 维 关系 表 
组 别 Object Feature Polarity Degree Object Feature Polarity Degree 
女 司机 慈善 1 5 女 司机 作 死 2 9 
Ne 女 司机 健康 1 3 女 司机 违规 2 5 
男 司机 顶天立地 1 7 女 司机 可 怜 忠 2 3 
男 司机 可 下 2 5 男 司机 久 暴 2 7 
林 和 森 浩 杀人 灭 2 7 法 律 沦丧 2 5 
NO 林 和 森 浩 亏欠 2 7 法 律 公道 1 5 
林 和 森 浩 毒害 2 7 黄 洋 含 完 2 5 
林 森 浩 自私 2 7 黄 洋 无 事 1 1 
王菲 任性 2 3 谢霆锋 遂 遥 2 5 
人 王菲 事 负 2 3 谢霆锋 不 闻 不 问 2 1 
王菲 潇 ; 1 5 张柏芝 无 私 1 5 
王菲 祝福 1 9 张柏芝 矫情 2 3 


4.3 实验 结果 对 比分 析 

基于 上 述 表示 的 四 元 组 结构 表 ， 利 用 情感 计算 公 
式 (5), 分别 计 算出 评论 总 集 C 和 评论 复 Ci 的 评论 对 象 
在 各 自 对 应 新 闻 网 络 与 论 中 的 情感 强度 值 , 再 将 上 述 
计算 出 来 的 各 自 对 应 的 评论 总 集 C 和 评论 复 Ci 的 情感 


强度 值 进行 对 比 , 结果 如 图 3 所 示 : 
人 
] 
-05] 并 总 全 
-1.0 从 从 党 
-15] 省 六 六 
3 全 从 。 
铬 一 。 
外 -4 从 
3 念 。 所 评论 所 对 象 正 向 情感 强度 
-6.0 涡 。 百 评论 总 集 对 象 正 向 情感 强度 
9 念 < 评论 包 对 象 负 向 情感 强度 
全 评论 总 集 对 象 负 向 情感 强度 
评论 对 象 
图 3 评论 总 集 和 评论 徐 的 情感 强度 值 


图 3 表明 , 三 个 新 闻 评 论文 本 的 源 数据 集 通 过 分 
析 处 理 ,利用 本 文 模型 计算 出 各 自 对 象 的 情感 强度 值 ， 
将 评论 篮 Ci 和 评论 总 集 C 各 自 评 论 对 象 的 情感 倾向 强 
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度 值 作对 比 。 新 闻 1 中 评论 文本 的 主要 评论 对 象 为 “ 女 
司机 ”、“ 男 司机 ”; 新 闻 2 中 评论 文本 的 主要 评论 对 象 
为 “林木 浩 ”"、“ 黄 洋 ”"、“ 法 律 ”” 新 闻 3 中 评论 文本 的 
主要 评论 对 象 为 “王菲 "“ 谢 霆 锋 "、“ 张 柏 芝 ” 三 则 新 
闻 采 用 社会 网 络 分 析 的 评论 簇 对 象 情感 倾向 性 分 析 模 
型 的 计算 结果 , 可 以 得 出 以 下 结论 : 

(1) 通过 反复 改进 本 模型 实验 过 程 中 的 不 合理 和 
芒 漏 问题 ,所 选取 的 不 同 领域 热点 话题 中 具有 代表 性 
的 三 则 新 闻 的 评论 簇 情感 强度 值 和 文本 总 集 情感 强度 
值 接近 度 保持 在 理想 误差 范围 内 。 在 同样 的 源 数 据 
下 , SVM 情感 分 类 带 对 此 类 评论 文本 的 处 理 效 果 不 及 
本 文 的 模型 效果 理想 。 从 实证 角度 看 ,本 人 研究 的 论据 、 
研究 模型 是 可 行 的 ， 且 效果 理想 。 

(2) 目前 ， 网 络 与 论 中 评论 对 象 情感 倾向 的 通用 
计算 是 根据 评论 总 集 的 源 数据 计算 而 得 到 。 通 过 图 3 
可 以 看 出 , 三 则 新 闻 网 络 与 论 中 , 各 自 评 论 对 象 的 正 
负 人 情感 强 度 在 评论 徐 和 评论 总 集 两 者 中 趋 于 一 致 ， 如 
果 直 接 采 用 评论 复 分 析 网 络 与 情 的 情感 倾向 强度 值 ， 
则 在 计算 机 处 理 耗 能 方面 ,性 能 可 提高 58%, 可 以 有 
效 降低 网 络 舆 情 分 析 的 时 间 和 空间 复杂 度 。 

(3) 根据 理论 ,代表 性 强 的 舆论 反映 了 整体 评议 
的 共同 取向 中。 此 次 实验 验证 了 评论 簇 在 网 络 和 与 论 中 
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具有 理想 的 情感 倾向 代表 性 作用 ,进而 对 深入 研究 网 
络 和 与 情 的 共同 取向 分 析 具 有 一 定 的 理论 和 实践 意义 。 


5 结 语 


本 文 基于 大 量 评论 语 料 , 提出 基于 社会 网 络 分 析 
的 评论 艇 对 象 情感 倾向 性 分 析 模 型 , 采用 SNA 和 网 络 
与 情 情 感 挖掘 算法 建立 了 一 种 评论 对 象 及 其 对 应 评论 
特征 的 抽取 规则 , 根据 这 种 规则 较 好 地 计算 出 评论 对 
象 的 情感 倾向 强度 ,验证 了 评论 簇 在 网 络 与 论 中 的 代 
表 性 理论 。 本 文 基 于 真实 的 新 闻 评 论文 本 源 , 运用 了 
正确 的 理论 和 方法 ， 以 保证 整个 研究 的 真实 性 和 可 靠 
性 。 因 此 , 在 评论 文本 分 析 中 直接 采用 评论 复 代 表 评 
论 总 集 , 在 计算 机 处 理 耗 时 方面 ,性 能 可 提高 58%， 
可 有 效 提高 网 络 与 情 分 析 的 效率 ,对 深入 研究 网 络 与 
情 具 有 有 效 的 理论 指导 和 实践 意义 。 同 时 , 由 于 本 文 
的 评论 复 对 象 情感 倾向 性 分 析 模 型 在 情感 特征 词 识别 
抽取 方法 方面 使 用 不 够 完善 ， 导 致 少量 中 文 分 词 和 词 
性 标注 错误 、 语 法 依存 关系 错误 ， 且 未 将 程度 词 考虑 
在 内 。 在 后 续 研 究 中 , 除了 优化 该 算法 , 还 考虑 将 评论 
文本 中 修饰 评论 对 象 的 程度 词 列 人 情感 强度 计算 范围 
之 内 , 并 进一步 优化 更 深层 次 的 中 文 分 词 和 词性 标注 ， 
丰富 完善 本 体 词 库 的 词语 量 , 使 得 后 续 研 究 体系 更 加 
完整 ,提高 情感 信息 抽取 的 完整 性 和 情感 强度 值 的 精 
确 性 。 
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Gauging Public Opinion with Comment-Clusters 


Yang Xiaoping MaQifeng YulLi MoYutng WuJia'nan Zhang Yue 
(School of Information, Renmin University of China, Beijing 100872, China) 


Abstract: [Objective] The paper examines the role of comment-clusters in public opinion mining. [Methods] We 
proposed a model to study the Comment-Clusters based on social network analysis techniques. First, we collected 
comments received by online news reports on three trending events as raw data. Second, we analysed structures and 
contents of these comments with the help of the vector relationship among them to identify the best comment-clusters. 
Finally, we conducted semantic analysis of the key players and their comments to investigate their sentiments and then 
compared them with those of the whole data set. [Results] The sentiments got from the whole data set and the 
comment-clusters were very close to each other. Comment-Clusters improved the performance of public opinion mining 
algorithm. [Limitations] The method of identifying and extracting sentiment words might yield errors. [Conclusions] 
The comment-clusters improve the sentiment orientation computing, which helps us obtain the public opinion more 
efficiently. 

Keywords: Semantic network Knowledge mapping Keyperson Web public opinion Comment-Clusters 


Sentiment orientation computing 


Tails 和 Innovative 合作 为 学 术 图 书馆 提供 一 流 的 解决 方案 


Innovative Interfaces 已 与 Tails 达成 合作 协议 , 改善 学 术 图 书馆 学 生 的 体验 ,， 并 提供 卓越 的 教学 参考 书 和 阅读 列表 管理 工 
作 流 。 

这 一 伙伴 关系 将 为 Innovative 和 Tails Aspire 解决 方案 提供 进一步 整合 的 机 会 , 通过 图 书馆 及 其 数字 馆藏 ， 无 颖 连接 学 生 
和 教师 ， 支撑 他 们 获取 更 好 的 学 术 成 就 。 随 着 学 术 图 书馆 需求 的 变化 , 以 及 学 术 环 境 下 图 书馆 新 机 遇 的 出 现 ， 这 一 合作 将 提 
升 双方 公司 产品 为 图 书馆 带 来 的 价值 。 

“ 当 我 们 考虑 到 技术 如 何 改 变 人 们 的 学 习 、 资 源 查 找 和 任务 执行 的 方式 时 , 我 们 相信 学 术 图 书馆 未 来 在 高 等 教育 中 将 比 
以 往 发 挥 更 为 积极 的 作用 。”Innovative 执行 副 总 裁 Leif Pedersen 说 :“ 与 Talis 合作 将 帮助 学 术 图 书馆 从 自己 的 馆藏 中 挖掘 出 
更 多 的 价值 ,实现 更 高 效率 的 采购 ， 确 保 我 们 的 图 书馆 用 户 拥有 最 高 品质 的 解决 方案 ,从 而 有 效 服务 于 他 们 的 机 构 。” 

认识 到 学 术 图 书馆 在 高 等 教育 中 发 挥 的 宝贵 作用 ， 两 家 公司 都 渴望 继续 提供 优质 的 服务 ,帮助 图 书馆 应 对 在 服务 校园 师 
生 中 所 面临 的 挑战 。 加 强 Talis Aspire 阅读 列表 和 Sierra 的 整合 将 为 双方 带 来 更 大 的 价值 ， 提 升 图 书馆 员工 工作 效率 ,帮助 学 
生 快 速 方便 地 获取 所 需 的 课程 资料 。 

“我 们 非常 高 兴 地 欢迎 Innovative 加 入 我 们 的 成 长 伙伴 计划 。 这 是 我 们 使 用 基于 标准 的 方法 来 无 颖 集成 我 们 的 高 品质 服 
务 和 重要 内 容 提供 商 的 又 一 案例 。 ”Talis 商业 开发 负责 人 Mark Bush 说 , “我 们 期 待 着 与 Innovative 共同 为 我 们 的 欧洲 和 亚太 
地 区 客户 谋 利 。” 


(编译 自 : https://www.iii.com/news-events/pr/talis-and-innovative-partner-deliver-best-class-solutions-academic-libraries) 
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